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Dieser internationale Recherchenbericht wurde von der Internationalen Recherchenbehorde erstellt und wird dem Anmelder gernaR 
Artikel 18 ubermittelt. Eine Kopie wird dem Internationalen Buro ubermittelt. 

Dieser internationale Recherchenbericht umfaBt insgesamt _2 Blatter. 

[X] Daruber hinaus liegt ihm jeweiis eine Kopie der in diesem Bericht genannten Unterlagen zum Stand der Technik bei. 



1 . Grundlage des Berichts 

a, 



Hinsichttich der Sprache ist die internationale Recherche auf der Grundlage der internationalen Anmeldung in der Sprache 
durchgefuhrt worden, in der sie eingereicht wurde, sofern unter diesem Punkt nichts anderes angegeben ist. 



□ 



2. 
3. 



Die internationale Recherche ist auf der Grundlage einer bei der Behorde eingereichten Ubersetzung der internationalen 
Anmeldung (Regel 23.1 b)) durchgefuhrt worden, 

Hinsichtiich der in der internationalen Anmeldung offenbarten Nucleotid- und/oder Aminosauresequenz ist die internationale 
Recherche auf der Grundlage des Sequenzprotokolls durchgefuhrt worden, das 
I I in der internationalen Anmeldung in Schriflicher Form enthalten ist. 

zusammen mit der internationalen Anmeldung in computerlesbarer Form eingereicht worden Ist. 

bei der Behorde nachtraglich in schriftlicher Form eingereicht worden ist. 

bei der Behorde nachtraglich In computerlesbarer Form eingereicht worden ist. 

Die ErklSrung, daf3 das nachtraglich eingereichte schriftliche Sequenzprotokol! nicht Ciber den Offenbarungsgehalt der 
internationalen Anmeldung im Anmeldezeitpunkt hinausgeht, wurde vorgelegt. 

I I Die Erkiarung, daf3 die in computerlesbarer Form erfaBten Informationen dem schriftlichen Sequenzprotokol! entsprechen, 
wurde vorgelegt. 

I I Bestimmte Anspruche haben sich als nicht recherchierbar erwiesen (siehe Feid I). 
I [ Mangelnde Einheitlichkeit der Erfindung (siehe Feld II). 



□ 
□ 
□ 
□ 



4. Hinsichtiich der Bezeichnung der Erfindung 

PC] wird der vom Anmelder eingereichte Wortlaut genehmigt. 
I I wurde der Wortlaut von der Behorde wie folgt festgesetzt: 



Hinsichtiich der Zusammenfassung 

1^ wird der vom Anmelder eingereichte Wortiaut genehmigt. 



wurde der Wortlaut nach Regel 38.2b) in der in Feld III angegebenen Fassung von der Behorde festgesetzt. Der 

I I Anmelder kann der Behorde innerhalb eines Monats nach dem Datum der Absendung dieses internationalen 
Recherchenberichts eine Stellungnahme vorlegen. 



Folgende Abbildung der Zeichnungen ist mit der Zusammenfassung zu veroffentiichen: Abb, Nr. . 
PC] wie vom Anmelder vorgeschlagen 

I I well der Anmelder selbst keine Abbildung vorgeschlagen hat. 
I I well diese Abbildung die Erfindung besser kennzeichnet. 



□ 



keine der Abb. 
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(57) Abstract 

The invention relates to the execution of a method and devices which enable the elimination of redundancy in digitally represented 
messages with a syntactic structure. The data reduction thus results by parsing the message corresponding to the mles of the underlying 
syntax and to the subsequent entropy coding of the decisions which affect selection of the rules. In the case when the message is a computer 
program, the original message or directly one executable program can be generated from the compressed representation by means of a 
pushdown automation. The area of application of the invention is, among others, in the transmission of computer programs in networks 
having limited bandwidths. 



(57) Zusammenfassung 

Es wird ein Verfahren und Einrichtungen zu seinem Vollzug vorgeschlagen, die es ermoglichen, Redundanz in digital dargestellten 
Nachrichten mit syntaktischer Struktur zu eliminieren. Die Datenreduktion erfolgt dabei durch Parsen der Nachricht entsprechend den 
Regein der zugrundeliegenden Syntax und nachfolgender Entropiecodierung der zur Auswahl der Regeln getroffenen Entscheidungen. Falls 
die Nachricht ein Computerprogramm ist, kann aus der komprimierten Darstellung durch einen Kellerautomaten die Originalnachricht oder , 
direkt ein ausfuhrbares Programm erzeugt werden, Anwendungsgebiet ist u.a. die Ubertragung von Computerprogrammen in Netzwerken 
mit begrenzter Bandbreite. 
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Kompression von Daten mit syntaktischer Struktur 

1 Einfiihrung in den Themenkreis 

VVichtige technische Anvvendungen der Quellencodierung liegen auf dem Gebiet der Uber- 
tragung und Speicherung von Nachrichten. Aus dem VVunsch einer geringen Datenrate 
bei der Ubertragung von Nachrichten, bzw. eines geringen Platzbedarfs bei der Speiche- 
rung von Nachrichten, erwachst die Forderung nach einer moglichst kurzen, d.h. redun- 
danzarmen und im Idealfall redundanzfreien Codierung der Nachricht, 

2 Stand der Technik 

2.1 Formen von Redundanz 

Redundanz tritt in Quellensymbolstromen in zweierlei grundlegenden Formen in Erschei- 
nung: Als unterschiedliche Auftrittshaufigkeit der Elemente des Quellensymbolvorrats, 
und in Form von statistischen Abhangigkeiten zwischen zeitlich auseinanderliegenden 
Quellensymbolen, die ihre Ursache meist in quellenspezifischen Bildungsgesetzen fiir die 
Konstruktion von Nachrichten als Folge von Quellensymbolen haben. 

3 Nachteile bekannter Verfahren 

Zur Kompaktierung redundanzbehafteter Quellen, deren abgegeben Quellensymbole 
nicht gleichverteilt, aber statistisch unabhangig sind. ist ein Verfahren nach Huffman 
[1] bekannt. Speziell fiir diesen Quellentyp geeignet, ist es mit dem Verfahren nur unter 
der giinstigsten Voraussetzung moglich, dafi die statistischen Eigenschaften der Quelle 
bekannt sind oder zuverlassig geschatzt werden konnen, eine maximale Kompaktierung 
zu erreichen. 

Wahrend die Schatzung der fiir Huffman-Codierung notwendigen Auftrittswahrschein- 
lichkeiten einzelner Quellensymbole auch bei maSig langen Nachrichten ausreichend ge- 
nau moglich ist, erfordert die Schatzung statistischer Abhangigkeiten zwischen zeitlich 
auseinanderliegenden Quellensymbolen in der Regel eine umfassende Beobachtung der 
Quelle, die technische Machbarkeit (Speicherplatz) und verfiigbaren Beobachtungszeit- 
raum bei weitem libersteigen. Deswegen treffen das bekannte oder ahnliche VerfaJiren 
stets Annahmen iiber das zugrundeliegende Bildungsgesetz oder wesentliche Charakte- 
ristika desselben, und sind dann uatiirlich auch nur fiir Quellen mit diesem Bildungsge- 
setz geeignet. Diese Einschrankung gilt auch fiir das seit Ende der TOer Jahre bekannte 
Verfahren nach Lempel-Ziv (LZ) Datenkompaktierungsverfahren [2] Dieses Verfahren ist 
zur Kompaktierung beliebiger iinearer Symbolfolgen geeignet, d.h. es ist anwendbar ohne 
Kenntnis der statistischen Eigenschaften der Nachrichtenquelle. Hauptanwendungsgebie- 
te sind heute die Kompaktierung von Bilddaten (GIF-Dateiformat) und beliebiger Da- 
teien ( Archivierungsprogramme gnuzip, pkzip). Im Gegensatz zur Huffman-Codierung 
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nutzt dieses Verfahren, zvvischen zeitlich aufeinanderfolgenden Symbolen bestehende, 
statistische Abhangigkeiten durch Beriicksichtigung wiederholt auftretender Teilsym- 
bolfolgen (Strings) aus. Damit ist LZ-Kompaktierung nur fiir solche Quellen geeignet, 
deren Bildiingsgesetz zum haufigen Auftreten bestimmter Strings fuhrt. Die Redundanz 
die durch das Befolgen grammatikalischer Regeln bei der Konstruktion einer Nachricht 
in diese eingebracht wird, ist den bekannten Kompaktierungsverfahren aufgrund der 
rekursiven Struktur grammatikalischer Regeln nicht zuganglich, da sie lediglich Symbol- 
haufigkeiten oder sich wiederholende Zeichenketten zur Kompaktierung heranziehen. 

4 Definition der Erfindungsaufgabe 

Aufgabe der Erfindung ist es, ein Verfahren und Einrichtungen zum Vollzug des Verfah- 
rens zu schaffen, welche sich auf die Fahigkeiten erstrecken, aus einer als Zeichenstrom 
vorliegenden Nachricht, die gemafi grammatikalischen Regeln gebildet wurde, durch Co- 
dieren jene Redundanz zu entfernen, die durch die Einschrankung aller moglichen Zei- 
chenfolgen durch die Grammatik entsteht. 

Diese Aufgabe wird durch ein Verfahren mit dem in Anspruch 1 angegebenen Merkmalen 
und zwei Vorrichtungen, mit den in den Anspruchen 8 und 9 genannten Merkmalen 
bewaltigt. 

5 Vorteile der erfinderischen Losung 

Mit der erfindungsgemafien Losung, eine Datenreduktion in Abhangigkeit zur verwen- 
deten Programmiersprachensyntax vornehmen zu konnen, ist es nunmehr in besonders 
vorteilhafter Weise moglich, Redundanz in Nachrichten, die sich wahrend ihrer Kon- 
struktion, wegen der Notwendigkeit bestimmte grammatikalische Regeln beachten zu 
miissen, asymptotisch nahezu vollstandig zu entfernen. 

Die Erfindung hat dies durch analytische Berechnung der Kapazitat ihres syntax- ori- 
entiert codierten Datenstroms am Beispiel einer Sprache mit fiir Programmiersprachen 
typischen Charakeristika (mathematische Ausdriicke, if-then-else-Konstrukt, etc.) bewie- 
sen. Dabei zeigte sich, dafi ein nicht geringer Anteil der Redundanz, der im Aufgaben- 
bereich herkommlicher Verfahren (Lempel-Ziv, Huffman) liegt, durch diese bisher nicht 
beseitigt wird. 

Das neue Verfahren der syntax-orientierten Codierung ist dagegen in der Lage, die Da- 
tenmengez.B. bezogen auf ein Komprimierungsergbnis nach dem Lempel-Ziv- Verfahren, 
noch einmal um nahezu die Halfte zu mindern. 

Damit ist das erfindungsgemafie Verahren und zu ihrem Vollzug definierten Einrich- 
tungen fiir alle Anwendungen pradestiniert, welche die Ubertragung oder Speicherung 
von syntaktisch strukturierten Nachrichten beinhalten. Beispiele sind die Ubertragung 
von Java-Applets im Internet oder Intranet, die Ubertragung oder Speicherung von 
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Postscript-Dateien. die Ubertragung unci Speicherung von MPEG-4-coclierten Videoda- 
ten, oder die Verwendung hoherer Protokolle bei der Konnmunikation. Gerade fiir die 
Ubertragung von Programmen, wie z. B. Java-Applets, ist SoC in besonderem Mafie 
75 geeignet, da der Parser sovvohl Bestandteil eines Compilers als auch eines SoC-Coders 
ist, und somit SoC organisch in den Datenflufi von der Programmerstellung bis zum 
Programmablauf integriert werden kann. 



6 Wirkungsweise der Erfindung 

6.1 Syntaktisch strukturierte Quelle 

80 Die Erfindung geht von einer formalen Sprache aus, welche durch eine Menge von Zei- 
chenketten dargestellt wird. Die Zusannmenstellung der Nachricht erfolgt dabei nach 
einer der Sprache zugeordneten Grammatik. Eine Grammatik ist sowohl das mathema- 
tische Systenn zur Definition einer formalen Sprache. als auch ein Satz von Regeln zur 
Feststellung der syntaktischen Giiltigkeit eines konkreten Satzes. Im folgenden werden 

85 nur kontextfreie Grammatiken betrachtet, da hohere Programmiersprachen (C, 0++, 
Java, etc.) fast ausschliefilich durch kontextfreie Grammatiken beschrieben werden. fol- 
gendermafien definiert: 

Definition 1 Eine kontextfreie Grammatik ist ein 4-Tupel G = (yV, T, P, 5), wobei 

N die Menge der Nonterminalsymbole^ 
90 T die Menge der Terminalsymbole. und 
P die Relation N x (N U T)* ist, 

S ist ein besonderes Nonterminalsymbol. auch Startsymbol genannt. 

Definition 2 Ein Element (A, 0) € P hei&t Produktion und wird abkiirzend A ^ (3 
geschrieben. 

95 Eine Produktion (oder Ableitung) ist somit eine Ersetzungsregel fiir ein Nonter- 
minalsymbol A. wobei dieses Nonterminalsymbol durch einen String (Kette) f3 aus 
(Nonterminal- und) Terminaisymbolen ersetzt wird. 

Existieren mehrere Produktionen (/l,/?i), (^,^2)5 - - —> {A^(3n) G -P, so schreiben wir hier- 
fiir: 

-4 ^ (Bi 

i (Sr. 
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Definition 3 Die Menge P_4^ C P aller moglichen Ableitungen fiir ein Nontevmina,!- 
symbol Aq 

Pao = {{A,0)eP:A^Ao} 

heifst auch die Menge der Alternativen fiir Aq. Die Entscheidung fiir die Anwendung 
einer konkreten Produktion (.4o, A ) G PaoA^ = 1. 2. • • • , n) nennen wir Auswahl. 

Beispiel 1 Alle arithmetischen Ausdriicke in der Variablen a mit den Operationen + 
und * sowie beliebig verschachtelten Klammern (, ) sind eine formale Sprache, die durch 
die Grammatik 

G =i{E,T,F}, {a,+, *.,{.)}, RE) 
erzeugt wird. P besteht aus den folgenden Produktionen: 

E E + T 

i T 

T T*F 

I F 

F ^ {E) 

I a 

100 a * a + {a * a + a) * a ist beispielsweise ein giiltiger Satz, 

Bei der Erzeugung eines Satzes werden Strings aus Nonterminal- und ggf. Terminalsym- 
bolen durch Anwendung passender Produktionen auf die Nonterminalsymbole weiter 
abgeleitet, bis letztendlich der String nur noch aus Terminalsymbolen besteht. Im o.g. 
Beispiel besteht der giiltige Satz nur noch aus den Terminalsymbolen a, + ,*,(, ). 

105 6.2 Prinzip der Syntax-orientierten Codierung (SoC) 

Information fliefit in eine erzeugte Nachricht immer dann ein, wenn bei ihrer Konstruk- 
tion Entscheidung en getroffen werden. Entscheidungen sind dann zu treffen, wenn von 
mehreren moglichen Quellensymbolen eines auszuwahlen ist, oder - bei einer syntaktisch 
strukturierten Quelle - von mehreren anwendbaren Produktionen .4 -> /?2, • • • 

no genau eine Produktion Anwendung findet (AuswahL vgl. Definition 3). 

SoC codiert anstelle des Strings aus Terminalsymbolen die Auswahlen, die der Reihe 
nach bei der Konstruktion dieses Strings (der Nachricht) vorgenommen werden. 

Definition 4 S {^i, aj, . . . , cr„} heiRt SoC-Alphabet mit 

n = max{|P^|} 



Alle Elemente einer jeden Menge von Alternativen P^ werden mit SoC-Symbolen cr,- G S 
(beliebig) durchnumeriert: 
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us Definition 5 : P4 — > S ist ehie (beUehige) injektive Abhildung, 
Die konkrete Definition von kann i.a. abhangig von Pa sein. 

Zur Veranschaulichung cler Erfindung sind folgend Ausfiihrungsbeispiele naher beschrie- 
ben und in den Figuren 1 bis 6 dargestellt. Es zeigen 

• Figur 1 ein Blockschaltbild eines SoC~Ubertragungssystems 

120 • Figur 2 Alternativen der Grammatik G und mit SoC-Symbolen attributierte Aus- 
wahlen 

• Figur 3 einen Parse-Baum des Satzes a*a + (a*a + a)*a mit Entstehung der 
linearen SoC-Symbolfolge 121222121121222222 

• Figur 1 ein Flufediagramm der Stack-Maschine (Kellerautomat) 

125 • Figur 5 ein besonderes Beispiel fiir ein SoC-Ubertragungssystem mit empfanger- 
seitiger Quelltextausgabe 

• Figur 5 ein Beispiel fiir ein SoC-Ubertragungssystem mit lauffahigem Java-Applet 
bzw, -Applikation als Ausgabe 

Die Funktion eines Ubertragungssystems mit SoC ist in Figur 1 veranschaulicht. Grund- 
130 satzlich sind Ubertragung und Speicherung im Hinblick auf die Wirkungsweise der Co- 
dierung gleichzusetzen. 

Die Quelle liefert einen syntaktisch strukturierten Symbolstrom (Queilprogramm). Ele- 
ment arer Bestandteil des SoC-Coders ist der Parser, dessen Aufgabe es ist, aus der 
zunachst linearen Folge von Quellensymbolen die grammatikalische Struktur des Satzes 

135 (des Quellenprogramms) wiederzugewinnen. Diese grammatikalische Struktur wird i.a. 
durch einen Parse-Baum dargestellt, der seinerseits als Eingabe fur den Coder dient. Der 
Coder erzeugt durch Codierung des Parse-Baumes eine lineare Folge von SoC-Symbolen, 
wobei dcLS jeweils aktuelle SoC-Symbol in Abhangigkeit der aktuellen Auswahl ausge- 
geben und iibertragen wird. Der SoC-Decoder baut aus der linearen Folge von SoC- 

140 Symbolen zunachst den Parse-Baum wieder auf, um dann durch dessen Traversieren die 
von der Quelle abgegebene Folge von Terminalsymbolen zu rekonstruieren. 



6.3 Codierung 

Die elementare Aufgabe des Parsers besteht darin, die bei der Konstruktion des Satzes 
von der Quelle getroffenen Auswahlen zu rekonstruieren. Ein Parse-Schritt bedeutet also 
145 die Feststeilung der konkreten Produktion (A,/3) G die auch die Quelle zur Kon- 
struktion der Nachricht an dieser Stelle ausgewahlt hatte. Der Coder ordnet entspre- 
chend Definition 5 der solchermafien festgestellten Auswahl das zugehorige SoC-Symbol 
CTjt = za ((v4,/?)) zu und attributiert den entsprechenden Knoten im Parse-Baum mit a^. 
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Durch Traversieren des Parse-Baumes wircl schliefilich die lineare Folge von SoC- 
150 Symbolen erzeugt und ausgegeben. In den Beispielen dieses Beitrags vvird hierfiir stets 
ein Depth-first-Algorithnnus verwendet. Der Prozefs der Codierung soil anhand eines bei- 
spielhaften Parse-Baunnes und der zugrundeliegenden Grammatik aus Beispiel 1 naher 
erlautert werden. 

Beispiel 2 Gegeben ist die kontextfreie Grammatik aus Beispiel 1. Alle Alternativen, 
155 dJi, alle Ableitungsmdglichkeiten fur jedes Nonterminalsymbol sind in der Figur 2 gra- 
phisch dargestellt. Da die mdchtigste Menge von Alternativen genau zwei Elemente hat, 
geniigi das SoC-Alphabet S {1,2}. Jede Auswahl alter Mengen von Alternativen wird 
mit einem SoC-Symbol attributiert, Beispielsweise wird die Auswahl der konkreten Pro- 
duktion T ^ T ^ F mit dem SoC-Symbol 1 attributiert, 

160 Ein giiltiger Satz der Grammatik ist dann also z. B.: a^a + (a^a+a)^a Den Parse-Baum 
fur diesen Satz und die Entstehung der SoC-Symbolfolge durch Depth- first- Traversieren 
zeigt Figur 3. 

6.4 SoC mit arithmetischer Codierung 

Das vorstehend erlauterte Verfahren ist nur dann efRzient, wenn 
165 1. IP^I = const VA, und 

2. P{[A,i3i)\A)^ const VA,A, 

wobei P{{A,[3i)\cx) die bedingte Wahrscheinlichkeit der (3i erzeugenden Auswahl der 
Menge der Alternativen Pa bezeichnet. 

Diesem Mangel kann durch arithmetische Codierung [3] des SoC-Alphabets S gema£ 
170 Anspruch 6 und 7 abgeholfen werden. Die fiir die arithmetische Codierung verwnedeten 
VVahrschieniichkeitsverteilungen der SoC-Symbole soUten in einer Adaptionseinrichtung 
nach Anspruch 10 adaptiert werden. wobei die Adaption getrennt fiir jede Menge von 
Alternativen durchgefiihrt werden mufi. Anstelle der linearen Sequenz von SoC-Symbolen 
wird der vom arithmetischen Coder erzeugte Bitstrom iibertragen. 

175 6.5 Decodierung 

Die Decodierung ist der inverse Prozefi zur Codierung. Der Decoder formatiert die SoC- 
Codes zuriick zum ursprunglichen Satz (Strings von Terminalsymbolen). Er arbeitet 
nach dem in den Anspriichen 1, 3 bzw. 4, 5 beschriebenen Verfahren und wird durch 
eine Stack-Maschine [4] gemag den Anspriichen 8 bzw. 9 realisiert. 

180 Ein FluSdiagramm fiir ein Verfahren nach Anspruch 22 ist in Figur 4 angegeben. 

Zur Erlauterung der Stack-Maschine werden folgende Bezeichungen eingefiihrt: 
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7 

3f,~ String von Terminal- unci Nonterminalsymbolen 
cr SoC- Symbol 

V Terminal- oder Nonterminalsymbol 
S Startsymbol (Nonterminalsymbol) 

Die Decodierung lauft damit in folgenden Schritten ab (die Nummern korrespondieren 
mit den Bezugszeichen in Figur 4): 

1. Die Entwicklung eines giiltigen Satzes der Grammatik (eines Programms) beginnt 
mit dem Startsymbol S. Das Startsymbol S wird auf den Stack gelegt. 

2. Das oberste Symbol V wird vom Stack gelesen. 

3. Priifen. ob V ein Nonterminalsymbol ist. 

4. Vom linearen Eingangs-SoC-Symbolstrom wird das nachste SoC-SymboI a gelesen. 

5. Falls V ein Nonterminalsymbol ist, wird die Ableitung mit V weiterentwickelt. 
Durch a wird eine Auswahl {V,pk) ~ ^~^io') der Menge der Alternativen von 
V — > ,^1 1/52 1 * * • |/3n fiir V bestimmt. Entsprechend der konkreten Auswahl wird V 
durch den String (3^ ersetzt. 

6. Der String von Symbolen (Terminal- und/oder Nonterminalsymbolen) wird auf 
den Stack gelegt. 

7. Falls V ein Terminalsymbol ist, wird es ausgegeben. 

8. Priifen. ob der Stack leer ist. 

9. Die Stack-Maschine terminiert, wenn der Stack leer ist. 

Die sukzessive ausgegebenen Strings von Terminalsymbolen ergeben miteinander verket- 
tet schliefilich den urspriinglich codierten Satz der Quelle. 

7 Ausfuhrungsbeispiel: bevorzugte Form der Anwendung 

Die beiden in Figur 5 und 6 dargestellten Ausfiihrungsbeispiele unterscheiden sich ledig- 
lich durch die Datenausgabe am Empfanger (Ausgabe von Quelltext entsprechend dem 
Verfahren nach Anspruch 3, bzw. direkte Ausgabe eines lauffahigen Java-Applets bzw. 
einer lauffahigen Java-Applikation entsprechend dem Verfahren nach Anspruch 4). 
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1. Java-Quelle 

210 Die Java-Quelle entspricht einem auf cler Java-Grammatik beruhenclen ASCII- 

Text, welcher aiis Java-Programmtext sowie Kommentaren, Leerzeichen, usw. be- 
steht. 

2. SoC-Encoder 

'3 

Der Soc-Encoder setzt sich zusammen aus einem Compiler-Frontend ((3), (4) und 
215 (6)), einer Parse-Baum-Verarbeitung (5), einer Adaptiervorrichtung (8) und Mo 

dulen zur Kompression und Verkettung der erzeugten Daten. 

3. Scanner 

Der Banner liest den Quelltext, entfernt die darin fiir das Programm unwichtigen 
Textstellen, wie Dokumentationen, Kommentare, Leerzeichen, usw. und iibergibt 
220 dem Parser (4) (Terminal-) Symbole. 

4. Parser 

Der Parser interpretiert die (Terminal-) Symbole des Scanners (3), priift ob die 
Symbolfolgen mit den grammatikalischen Regeln fiir Java iibereinstimmen und 
erstellt den fiir dieses Programm spezifischen Parse-Baum. Zusatzlich wird die 
225 Symbol tabelle (6) aufgebaut. 

5. Parse-Baum-Verarbeitung 

Bei der Initialisierung der Parse-Baum-Verarbeitung werden alle Knoten des Parse- 
Baumes mit fiir jeden Knotentyp festgelegten SoC-Symbolen attributiert. Die dar- 
auf folgende Traversierung ailer Knoten des Parse-Baumes fiihrt bei jedem Durch- 
230 schreiten eines Knotens zur Ausgabe eines SoC-Symbols. Diese SoC-Symbole wer- 

den sowohl der Adaptiervorrichtung (8) ais auch dem arithmetischen Coder (10) 
iibergeben. Zusatzlich iibergibt die Parse-Baum-Verarbeitung den aktuellen Kno- 
tentyp an die Adaptiervorrichtung (8). 

6. Symboltabellenspeicher 

235 Der Symboltabellenspeicher beinhaltet die vom Parser (4) extrahierten Bezeichner 

des Java-Programmtextes. 

7. Zip-Kompressionseinrichtung 

Der Inhalt der Symboltabelle (6) wird durch das Verfahren nach Lempel- Zip- Welch 
[2] komprimiert. 

240 8. Sendeseitige Adaptiervorrichtung 

Die Adaptiervorrichtung tragt bei der Initialisierung festgelegte Anfangswahr- 
scheinlichkeitsverteilungen fur jeden Knotentyp in der Wahrscheinlichkeitsvertei- 
lungstabelle (9) ein. Bei der laufenden Verarbeitung der von der Parse-Baum- 
Verabeitung (5 iibernommenen SoC-Symbole und anhand der aktuellen Knoten- 
245 typen wird bei jedem Schritt die Wahrscheinlichkeitsverteilung aller SoC-Symbole 
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des aktuellen Knotentyps adaptiert und in dcr VVahrscheinlichkeitsverteilungsta- 
belle (9) eingetragen. Die Adaptiervorrichtung stellt gleichzeitig dein arithmeti- 
schen Coder 10 die zum jeweils aktuellen SoC-Symbol gehorende VVahrscheinlich- 
keitsverteilung zur Verfiigung. 

250 9. Tabelle der Wahrscheinlichkeitsverteilungen der SoC-Symbole 

Fiir jeden Knotentyp enthalt die Tabelle eine eigene VVahrscheinlichkeitsverteilung 
der SoC-Symbole des jeweiligen Knotentyps. 

10. Arithmetischer Coder 

Der arithmetische Coder [3] empfangt von der Parse-Baum-Verarbeitung (5) dcus 
255 nachste zu codierende SoC-Symbol und codiert es unter Beriicksichtigung der von 

der Adaptiervorrichtung (8) zur Verfiigung gestellten Wahrscheinlichkeitsvertei- 
lung. Der Output des arithmetischen Coders ist ein binarer Datenstrom. 

11. Datenverkettung 

Der binare Datenstronn des arithmetischen Coders (10) und die durch (7) kompri- 
260 mierte Symboltabelle (6) werden zu einem Datenpaket zusammengefafit. 

12. HTTP-Server 

Auf dem HTTP-Server wird das in der Datenverkettung (11) erstellte Datenpaket 
abgelegt und zum Abruf auf einem Massenspeicher zur Verfiigung gestellt. 

13. Intranet /Internet 

265 14. HTTP-Client (Internet-Browser) 

Der Browser hat die Aufgabe das Datenpaket iiber das Intranet/ Internet 13 von ei- 
nem HTTP-Server (12) zu laden und den Decodiervorgang durch den SoC-Decoder 
(15) anzustolSen. 

15. SoC-Decoder 

270 Der SoC-Decoder besteht im wesentlichen aus dem arithmetischen Decoder (17) 

und dem Kellerautomaten (22). Als Ergebnis liefert er die Sequenz der (Terminal-) 
Symbole die dem urspriinglichen Java-Quellcode entsprechen (vgl. 3 und 4). (1). 

16. Datenextraktion 

Hier werden der binare Datenstrom des arithmetischen Coders (10) und die durch 
275 Zip (7) komprimierte Symboltabelle aus dem gemeinsamen Datenpaket extra- 

hiert und ersterer an den arithmetischen Decoder (17), letzterer an die Zip- 
Dekompressionseinrichtung (18) weitergegeben. 

17. Arithmetischer Decoder 

Der arithmetische Decoder [3] decodiert adaptiv den binaren Datenstrom von der 
280 Datenextraktion (16) unter Beriicksichtigung der von der empfangsseitigen Adap- 

tiervorrichtung (20) zur Verfiigung gestellten Wahrscheinlichkeitsverteilungen zu 
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den SoC-Symbolen und iibergibt pro Decodierschritt ein SoC-Symbol an den Kel- 
lerautomaten (22). 

18. Zip-Dekompressionseinrichtung 

285 Die mit mit dem Verfahren nach Lempel-Ziv (7) komprimierte Symboltabelle des 

Coders (6) aus der Datenextraktion (16) vvird entpackt und an den Symboltabel- 
lenspeicher des Decoders (19) eingetragen. 

19. Symboltabellenspeicher des Decoders 

20. Adaptiervorrichtung (empfangsseitig) 

290 Die Initialisierung der empfangsseitigen Adaptiervorrichtung erfolgt analog zur 

sendeseitigen Adaptiervorrichtung (8). Wahrend der laufenden Decodierung er- 
halt die Adaptiervorrichtung bei jedem Decodierschritt ein SoC-SymboL adaptiert 
die Wahrscheinlichkeitsverteilung der SoC-Symbole des aktuellen Knotentyps und 
tragt die adaptierten Wahrscheinlichkeitsverteilungen in die Wahrscheinhchkeits- 

295 verteilungstabelle (21) ein. Gleichzeitig stellt die empfangsseitige Adaptiervorrich- 

tung die fur den nachsten Decodierschritt giiltige Wahrscheinhchkeitsverteilung 
dem arithmetischen Decoder zur Verfiigung. Die Auswahl dieser Verteilung be- 
stimmt sich durch den vom Kellerautomaten (22) festgelegten und im nachsten 
Decodierschritt zu erwartenden Knotentyp. 

300 21. Tabelle der Wahrscheinlichkeitsverteilungen der SoC-Symbole 

Fiir jeden Knotentyp enthalt die Tabelle eine eigene Wahrscheinlichkeitsverteilung 
der SoC-Symbole dieses Knotentyps. 

22. Kellerautomat 

Die Initialisierung des Kellerautomaten, die Bearbeitung des Stapelspeichers, sowie 
305 die Ausgabe von Terminalsymbolen ist in Figur 4 als Flufidiagramm dargestellt. 

Zusatzlich iibergibt der Kellerautomat Daten an die Adaptiervorrichtung(20): 

(a) den jeweils aktuellen Knotentyp zur Adaption der Wahrscheinlichkeitsvertei- 
lungen der SoC-Symbole dieses Knotentyps 

(b) den nachsten Knotentyp, dessen Wahrscheinlichkeitsverteilung der SoC- 
310 Symbole die Adaptiervorrichtung (20) im nachsten Decodierschritt dem arith- 
metischen Decoder (17) zur Verfiigung stellen mufi. 

23. Stapelspeicher 

Stapelspeicher (Stack) fiir den Kellerautomaten (22). 

24. Java-Sinke 



315 



Wiedergewonnener Java-Programmtext ohne Kommentare. iiberfliissige Leerzei- 
chen, usw. . 
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25. Cocleerzeuger 

Der Cocleerzeuger enspricht einem Compiler-Backend unci generiert Bytecode fiir 
die JVM (26) in Abhangigkeit der Sequenz der (Terminal-) Symbole. die der Kel- 
320 lerautomat (22) liefert. 

26. JVM 

Die virtuelle Maschine fiir Java-Programme (Java Virtual Machine). 
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Bezugszeichenliste 

Bezugszeichen zur Figur 4 

0k String von Terminal- und Nonterminalsymbolen 
335 a SoC- Symbol 

V Terminal- oder Nonterminalsymbol 
S Startsymbol (Nonterminalsymbol) 

1. Die Entwicklung eines giiltigen Satzes der Grammatik (eines Programms) beginnt 
mit dem Startsymbol 5. Das Startsymbol S wird auf den Stack gelegt. 

340 2. Das oberste Symbol V wird vom Stack gelesen. 

3. Priifen. ob V ein Nonterminalsymbol ist. 

4. Vom linearen Eingangs-SoC-Symbolstrom wird das nachste SoC-Symbol a gelesen. 

5. Falls V ein Nonterminalsymbol ist, wird die Ableitung mit V weiterentwickelt. 
Durch a wird eine Auswahl {V,(3k) = ^~^(^) Menge der Alternativen von 

345 V i?i|/?2| • • • IPn fiir V bestimmt. Entsprechend der konkreten Auswahl wird V 

durch den String 0fc ersetzt. 

6. Der String /3k von Symbolen (Terminal- und/oder Nonterminalsymbolen) wird auf 
den Stack gelegt. 
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7. Falls V ein Terminalsymbol ist, wircl es ausgegeben. 
350 S. Priifen, ob der Stack leer ist. 

9. Die Stack-Maschine terminiert, wenn der Stack leer ist. 

Bezugszeichen zu den Figuren 5 und 6 

1. Java- Quelle 

2. SoC-Encoder 
355 3. Scanner 

4. Parser 

5. Parse-Baum-Verarbeitung 

6. Symboltabellenspeicher 

7. Zip-Kompressionseinrichtung 

360 8. Sendeseitige Adaptiervorrichtung 

9. Tabelle der Wahrscheinlichkeitsverteilungen der SoC-Symbole 

10. Arithmetischer Coder 

11. Datenverkettung 

12. HTTP-Server 

365 1 3. Intranet /Internet 

14. HTTP-Client (Internet-Browser) 

15. SoC-Decoder 

16. Datenextraktion 

17. Arithmetischer Decoder 

370 18. Zip-Dekompressionseinrichtung 

19. Symboltabellenspeicher des Decoders 

20. Adaptiervorrichtung (empfangsseitig) 

21. Tabelle der Wahrscheinlichkeitsverteilungen der SoC-Symbole 

22. Kellerautomat 
375 23. Stapelspeicher 

24. Java-Sinke 

25. Codeerzeuger 

26. JVM 
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Patentanspriiche 

380 1. Verfahren zur komprimierten Ubertragung und/oder Speicherung von einer durch 
digitale Daten reprascntierten Nachricht. deren Struktur durch eine Grammatik 
definiert wird, 

dadurch gekennzeichnet. dafi 

(a) vor der Speicherung und/oder Ubertragung die Nachricht in eine Hneare Se- 
385 quenz von Symbolen, welche die sukzessive Anwendung grammatikalischer 

Regeln zur Bildung der Nachricht definiert, iiberfiihrt wird, und 

(b) nach der Speicherung und/oder Ubertragung zur Decodierung fiir jedes so 
syntax orientiert codierte (SoC) Symbol die dem jeweiligen SoC-Symbol ent- 
sprechende grammatikalische Regel ausgefiihrt wird und durch diese Regel 

390 bestimmte Ausgangsdaten erzeugt werden. 

2. Verfahren nach Anspruch 1, 

dadurch gekennzeichnet. dafi zur Erzeugung der SoC-Symbole 

(a) durch Parsen der Nachricht ein den aufeinanderfolgenden Anwendungen der 
grammatikalischen Regeln entsprechender Parse-Baum erzeugt wird, 

395 (b) jeder Knoten dieses Parse-Baumes mit einem SoC-Symbol attributiert wird, 

welches unter alien an dieser Stelle durch die Grammatik erlaubten Regeln die 
tatsachlich zur Erzeugung der urspriinglichen Nachricht angewendete Regel 
eindeutig identifiziert, und 

(c) die SoC-Symbole gemafi einer festgelegten Reihenfolge der Traversierung al- 
400 ler Knoten des Parse-Baumes zu einer linearen Sequenz von SoC-Symbolen 

verkettet werden. 

3. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet, dafi 
zur Decodierung 

405 (a) der oberste Eintrag eines Stapelspeichers gemafi der durch das eingegebene 

SoC-Symbol bestimmten Produktion der Grammatik substituiert wird, 

(b) noch nicht vollstandig bearbeitbare Telle der grammatikalischen Regel in ei- 
nem Stapelspeicher ablegt werden, und 

(c) vollstandig substituierte Teile der Produktion als Teil der urspriinglichen 
410 Nachricht ausgegeben werden. 

4. Verfahren nach Anspruch 1, 
dadurch gekennzeichnet. dafi 
zur Decodierung 
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(a) der oberste Eintrag eines Stapelspeichers gemafs der durch das eingegebene 
415 SoC-Symbol bestimmten Produktion der Grammatik substituiert wird, 

(b) noch nicht voUstandig bearbeitbare Teile der grammatikalischen Regel in ei- 
nem Stapelspeicher ablegt warden. 

(c) vollstandig substitiiierte Teile der Produktion unmittelbar zu einem Teil ei- 
nes ausfiihrbaren Programms fiir einen realen Prozessor oder eine virtuelle 

420 Maschine verarbeitet werden. 

5. Verfahren nach Anspruch 3 oder 4 

dadurch gekennzeichnet, daft ein Kellerautomat 

(a) durch das Ablegen eines definierten Startsymbols (Nonterminalsymbol) auf 
den leeren Stapelspeicher initialisiert wird, 

425 (b) das oberste Symbol vom Stapelspeicher liest, 

(c) priift. ob das gelesene Symbol ein Terminal- oder Nonterminalsymbol ist, 

(d) falls es ein Terminalsymbol ist, das Symbol ausgibt und abhangig davon, 
ob weitere Symbole im Stapelspeicher vorhanden sind, mit 5b fortfahrt bzw. 
terminiert. falls der Stapelspeicher leer ist. oder 

430 (e) falls es ein Nonterminalsymbol ist. das nachste SoC-Symbol vom Eingabe- 

strom liest, 

(f) abhangig vom gelesenen SoC-Symbol genau eine Alternative (Kette von 
Terminal- und/oder Nonterminalsymbolen) aus der fiir das aktuell bearbeitete 
Nonterminalsymbol gultigen Menge von alternativ anwendbaren Ersetzungs- 

435 regeln (Produktionen) auswahlt und 

(g) diese Kette von Terminal- und/oder Nonterminalsymbolen auf den Stapel- 
speicher legt und mit 5b fortfahrt. 

6. Verfahren nach Anspruch 2, 
dadurch gekennzeichnet, dafi 

440 (a) jeder Knoten des Parse-Baumes mit einem SoC-Symbol und der Wahrschein- 

lichkeitsverteilung aller in diesem Knoten moglichen SoC-Symbole attributiert 
wird. 

(b) die lineare Sequenz der SoC-Symbole in Einheit mit den zugeordneten Wahr- 
scheinlichkeitsverteilungen einer Entropie-Codierung unterworfen wird, 

445 (c) die Entropie-Decodierung mit den identischen VVahrscheinlichkeitsverteilun- 

gen der SoC-Symbole durchgefiihrt wird. wie sie bei der Entropie-Codierung 
angewendet wurden. 

7. Verfahren nach Anspruch 6, 
dadurch gekennzeichnet, daft 
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450 (a) die Wahrschcinlichkeitsverteilung der in eincm Kiioten anvvendbaren Re- 

geln, ausgehend von einer Anfangsverteilung, bei jedem Auftreten eines SoC- 
Symbols so adaptiert vvird, dafi die VVahrscheinlichkeit fiir das aufgetretene 
SoC-Symbol erhoht und die VVahrscheinlichkeit aller aaderen Symbole ent- 
sprechend verringert wird, 

455 (b) die jeweils aktuelle Verteilung der Auftrittswahrscheinlichkeiten den SoC- 

Symbolen des entsprechenden Knotentyps zugeordnet wird, 

(c) die VVahrscheinlichkeits verteilung aller SoC-Symbole im aktueilen Knoten zu- 
sammen mit dem zu codierenden SoC-Symbol das Modell fiir eine arithmeti- 
sche Codierung bildet. 

460 (d) bei der Decodierung das Ende der Nachricht dadurch erkannt wird, dafi der 

Stapeispeicher leer ist und 

(e) auf das bei der arithmetischen Codierung notvvendige End-Of-Message (EOM) 
Synibol verzichtet wird. 

S. Einrichtung fiir das Verfahren nach Anspruch 1 
465 gekennzeichnet durch 

einen Codierer, bestehend aus 

(a) einem Scanner zur Umformung der Nachricht als Sequenz von lesbaxen Zei- 
chen in eine Folge von Terminalsymbolen, 

(b) einem Parser zum Auffinden der grammatikalischen Regeln, durch deren suk- 
470 zessive Anwendung die Folge von Terminalsymbolen urspriinglich erzeugt 

wurde, 

(c) einem Mapper, der den vom Parser identifizierten Regeln eindeutig Syntax- 
orientierte Symbole zuordnet und diese in festgelegter Reihenfolge ausgibt, 

und einen Decodierer. bestehend aus 

475 (a) einem Kellerautomaten, der, entsprechend dem obersten Symbol des Stapel- 

speichers und ggf. dem anliegenden SoC-Symbol, das bereits feststehende Ter- 
minalsymbol ausgibt, oder die dem aktueilen Symbol zugeordnete Sequenz 
von Terminal- und/oder Nonterminalsymbolen auf dem Stapeispeicher ab- 
legt und 

480 (b) einem Lexikon, da5 die Terminalsymbole wieder durch Ketten aus lesbaren 

Zeichen ersetzt. 

9. Einrichtung fiir das Verfahren nach Anspruch 3 
gekennzeichnet durch 
einen Codierer, bestehend aus 
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485 (a) einem Scanner zur Umformung eines, iin Quelltext oder einer vom Quelltext 

durch einen Praprozessor abgeleiteten Form vorliegenden. Programms in eine 
Folge von Terminalsymbolen, 

(b) einem Parser zum AufRnden der grammatikalischen Regeln. durch deren suk- 
zessive Anwendung die Folge von Terminalsymbolen urspriinglich erzeugt 

490 wurde. 

(c) einem Mapper, der den vom Parser identifizierten Regeln eindeutig Syntax- 
orientierte Symbole zuordnet und diese in festgelegter Reihenfolge ausgibt, 

und einen Decodierer, bestehend aus 

(a) einem Kellerautomaten, der, entsprechend dem obersten Symbol des Stapel- 
495 speichers und ggf. dem anliegenden SoC-Symbol, das bereits feststehende Ter- 

minalsymbol ausgibt, oder die dem aktuellen Symbol zugeordnete Sequenz 
von Terminal- und/oder Nonterminalsymbolen auf dem Stapelspeicher ab- 
legt und 

(b) einem Codegenerator. der aus der Folge von Terminalsymbolen ausfiihrba- 
500 ren Maschinencode, oder Zwischencode zur Ausfiihrung auf einer virtueilen 

Maschine erzeugt. 

10. Einrichtung fiir das Verfahren nach Anspruch 7 
bestehend aus 

(a) senderseitig 

505 i. einer Tabelle, die die Wahrscheinlichkeitsverteilungen der SoC-Symbole 

fiir jeden Knotentyp beinhaltet und deren Inhalt bei der Initialisierung 
mit festgelegten Anfangswahrscheinlichkeitsverteilungen fiir jeden Kno- 
tentyp belegt w^ird, 
ii. einer Adapt ions vorrichtung, die die Wahrscheinlichkeitsverteilung der 

510 SoC-Symbole des momentan giiltigen Knotentyps anhand der bestehen- 

den Wahrscheinlichkeitsverteilung, des zu codierenden SoC-Symbols und 
des aktuellen Knotentyps aktualisiert und diese neue Wahrscheinlichkeits- 
verteilung in die Tabelle eintragt, 
iii. und einer arithmetischen Codiervorrichtung, die das jeweils zu codierende 

515 SoC-Symbol mit der von der Adaptionsvorrichtung zur Verfiigung gestell- 

ten aktuell giiltigen Wahrscheinlichkeitsverteilung codiert; 

(b) und empfangerseitig 

i. einer Tabelle, die die Wahrscheinlichkeitsverteilungen der SoC-Symbole 
fiir jeden Knotentyp beinhaltet und deren Inhalt bei der Initialisierung 
520 mit festgelegten Anfangswahrscheinlichkeitsverteilungen fiir jeden Kno- 

tentyp belegt wird. 
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ii. einer Adaptionsvorrichtung, die die Wahrscheinlichkeitsverteilung der 
SoC-Symbole day vom Kellerautomaten festgelegten, momentan gultigen 
Knotentyps anhand der bestehenden Wahrscheinlichkeitsverteilung, des 
525 decodierten SoC-Symbols und des aktuellen Knotentyps aktualisiert und 

diese neue VVahrscheinhchkeitsverteilung in die Tabelle eintragt, 
iii. einer arithmetischen Decodiervorrichtung, die anhand der von der Adap- 
tionsvorrichtung zur Verfiigung gestellten, aktuell gultigen Wahrschein- 
lichkeitsverteilung des aktuellen Knotentyps das nachste SoC-Synabol de- 
530 codiert und zur weiteren Verarbeitung dem Kellerautomaten iibergibt. 
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